# 大类：知识产权
# 小类：专利信息

import time
from bs4 import BeautifulSoup

from TycDetailParse.spiders.parseinfo.gethtmlutil import get_html


# 28-专利数据-2018-05-26
def get_zhuanli(mongo_instance, soup, cid, company):
    print('start 专利数据*******')

    if soup.find('div', id='_container_patent'):
        for tr in soup.find('div', id='_container_patent').find('tbody').find_all('tr'):
            item = {}
            tds = tr.find_all('td')
            item['publish_date'] = tds[1].find('span').text  # 申请公布日
            item['name'] = tds[2].find('span').text  # 专利名称
            item['apply_code'] = tds[3].find('span').text  # 申请号
            item['publish_code'] = tds[4].find('span').text  # 申请公布号
            item['type'] = tds[5].find('span').text  # 专利类型
            from_url = tds[6].find('a')['href']  # 专利详情url
            from_text = get_html(from_url)
            from_soup = BeautifulSoup(from_text, 'lxml')
            item['content'] = str(from_soup.contents[1])
            item['create_at'] = int(time.time())  # 创建时间，我们自己维护的一个东西
            item['update_at'] = item['create_at']  # 更新时间，我们自己维护的一个东西，此处的逻辑待优化
            item['company'] = company  # 公司名称，便于后续查找
            item['company_id'] = cid  # 公司id，便于后续查找
            print(item)
            mongo_instance.zhuanli.update({'company_id': cid}, item, True)

    print('success 专利数据*******')
